智能论文笔记

Conjugated Discrete Distributions for Distributional Reinforcement Learning

Björn Lindenberg , Jonas Nordqvist , Karl-Olof Lindahl

分类：机器学习 | 人工智能 | (统计)机器学习

2021-12-14

在这项工作中，我们继续建立最近有限马尔可夫进程的钢筋学习的进步。以前现有的算法中的一种共同方法，包括单个演员和分布式，都是剪辑奖励，也可以在Q函数上应用转换方法，以处理真正的折扣回报中的各种大小。理论上我们展示了如果我们有非确定性过程，最成功的方法可能不会产生最佳政策。作为一种解决方案，我们认为分布加强学习借给自己完全解决这种情况。通过引入共轭分布运营商，我们可以处理大量转换，以获得有保证的理论融合。我们提出了一种基于该操作员的近似单录像机算法，该操作员使用Cram \'ER距离给出的适当分布度量直接在不妨碍的奖励上培养代理。在使用粘性动作的35个Atari 2600游戏套件中培训代理的随机环境中的表现，与多巴胺框架中的其他众所周知的算法相比，获得最先进的绩效。

translated by 谷歌翻译